Dimensión Educación

Esta dimensión hace parte del estudio de la encuesta de calidad de vida de la alcaldia de Medellín 2018, para este ejercicio se seleccionaron las siguientes preguntas de dicha dimensión para realizar el analisis.

Desarrollo de las preguntas Dimension Educación

Pregunta de la encuesta p_35

¿Sabe leer y escribir mas de un parrafo?

Posibles respuestas a la pregunta.
  * Si <- 1.
  * No <- 2.
Variable que se desea medir.
Nivel de Analfabetismo en los Barrios de Medellín.

Se identifica que la pregunta p_35 en su resumen inicial no tiene valores perdidos, tiene una completitud total.

Configuración de indicadores para la pregunta p_35.

Indicador definido. * Indicador. Nivel de analfabetismo en barrios de Medellín. * Nivel de analfabetismo = Respuestas en 2 por Barrio / Total encuestados en el Barrio.

## # A tibble: 6 x 4
##   comuna    barrio                         p_35    k_35
##   <fct>     <fct>                          <chr>  <dbl>
## 1 ALTAVISTA AGUAS FRÍAS                    2     0.135 
## 2 ALTAVISTA ALTAVISTA CENTRAL              2     0.142 
## 3 ALTAVISTA ÁREA DE EXPANSIÓN ALTAVISTA    2     0.149 
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 2     0.0517
## 5 ALTAVISTA BUGA PATIO BONITO              2     0.128 
## 6 ALTAVISTA CABECERA ALTAVISTA             2     0.113

Pregunta de la encuesta p_37

¿Estudió durante este año?

Posibles respuestas a la pregunta.
  * Si <- 1.
  * No <- 2.
  * -88 <- No aplica
  
Variable que se desea medir.
Indicador:
Porcentaje de personas que estudiaron en este año.
Formula :
Total de encuentas que respondieron 1 (Si) / Total de encuentas por Barrio

Indicador definido. * Indicador 1

Proporsión de la pregunta p_37 con sus posibles respuestas.

## # A tibble: 3 x 2
##   p_37  cantidad
##   <chr>    <dbl>
## 1 -88      26.7 
## 2 1         1.76
## 3 2        71.5

Se encuetra que en la pregunta formulada, existe una gran cantidad de respuestas con la opción -88 (No aplica). Esta respuesta puede terner varias consideraciones : * La persona encuestada, hace parte de las personas que contestaron p_35 como NO. * La persona encuentada, aunque contesto afirmativamente la pregunta p_35, no tiene estudios auque tiene un poco conocimiento en lecto-escritura.

Para efectos de esta pregunta en este estudio, se considerá que los encuestados en la p_37 con respuesta -88 se entenderá que no realizá estudios durante el año.

## # A tibble: 2 x 2
##   p_37  cantidad
##   <chr>    <dbl>
## 1 1         1.76
## 2 2        98.2

Generación de Indicadores p_37.

## # A tibble: 6 x 4
##   comuna    barrio                         p_37     k_37
##   <fct>     <fct>                          <chr>   <dbl>
## 1 ALTAVISTA AGUAS FRÍAS                    1     0.0159 
## 2 ALTAVISTA ALTAVISTA CENTRAL              1     0.0178 
## 3 ALTAVISTA ÁREA DE EXPANSIÓN ALTAVISTA    1     0.0207 
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 1     0.0259 
## 5 ALTAVISTA BUGA PATIO BONITO              1     0.0208 
## 6 ALTAVISTA CABECERA ALTAVISTA             1     0.00595

Pregunta de la encuesta p_38.

¿cual es la causa principal por la que se salió de estudiar este año?

Posibles respuestas a la pregunta.
  • -99 No responde
  • -88 No aplica
  • 1 Considera que no está en edad escolar
  • 2 Considera que ya terminó sus estudios
  • 3 Los costos educativos elevados o Falta dinero
  • 4 Debe encargarse de los oficios del hogar.
  • 5 Falta de tiempo
  • 6 Por embrazo
  • 7 Por inseguridad en el establecimiento educativo, en el entorno del establecimiento o en el lugar de residencia
  • 8 Falta de cupos
  • 9 No existe centro educativo cercano. El establecimiento asignado está muy lejano
  • 10 Necesita trabajar
  • 11 No le gusta o no le interesa el estudio
  • 12 Por enfermedad o incapacidad física
  • 13 Necesita educación especial
  • 14 Recibe malos tratos en el colegio
  • 15 Porque se casó o formó pareja
  • 16 Tuvieron que abandonar el lugar de rsidencia habitual
  • 17 Bajo rendimiento académico o indisciplina
  • 18 No pudo conseguir los documentos que exigían
  • 19 Razones familiares
  • 20 Prestar servicio militar
  • 21 Falta de comprensiónn de su identidad étnica (cultura, idioma o lengua)
  • 22 Ingreso a un programa de rehabilitación por consumo de sustancias psicoactivas

####Indicador definido. * Indicador 1 Porcentaje de desescolarización debido a la falta de garantias en barrios de Medellín. * Formula del indicador: * Numero de encuestas con respuestas orientadas a la falta de garantias / Total encuestados en Barrios

Para consolidar la variable en terminos de indicador se consolidaron las repuestas de la pregunta p_38 en los siguientes grupos, adicional las preguntas fueron agrupadas así.

  • Otras Actividades - O - (-99,4,5,15,17,18,19,20,22 )
  • No aplica - N - (-88)
  • Motivación - M - (1,2,11)
  • Económico - E - (3,10)
  • Salud - S - (6,12,13)
  • Garantias - G - (7,8,9,14,16,21)

Generación de indicador para la p_38

## # A tibble: 6 x 4
##   comuna    barrio               p_38      k_38
##   <fct>     <fct>                <chr>    <dbl>
## 1 ALTAVISTA BUGA PATIO BONITO    G     0.00595 
## 2 ALTAVISTA EL JARDÍN            G     0.0125  
## 3 ALTAVISTA LA ESPERANZA         G     0.000352
## 4 ALTAVISTA SAN PABLO            G     0.00154 
## 5 ARANJUEZ  BERLÍN               G     0.000502
## 6 ARANJUEZ  BERMEJAL- LOS ÁLAMOS G     0.000699

Pregunta de la encuesta p_43.

¿Que medio de transporte utiliza predominantemente para dirigirse a su centro educativo?

Posibles respuestas a la pregunta.
  • -98 No sabe
  • -88 No aplica
  • -77 Otro.
  • 1 Caminando
  • 2 Bicicleta
  • 3 Moto
  • 4 Bus/Buseta/Ejecutivo
  • 5 Transporte Informal
  • 6 Taxi/Colectivo
  • 7 Transporte Privado
  • 8 Metro/Cable
  • 9 Sistema integrado de transporte (SIT).
  • 10 Caballo (bestia)
  • 11 Lancha, Canoa, Bote

Variable que se desea medir.

Indicador definido.
Indicador 1 Porcentaje de estudiantes que utilizan el transporte publico para dirigirse al centro educativo?
Numero de encuestas que responden que utiliza servicio publico / Total por Barrio
Para consolidar la variable en terminos de indicador se consolidaron las repuestas de la pregunta p_43 en los ##### siguientes grupos, adicional las preguntas fueron agrupadas así.
  • No sabe -98
  • No aplica -88
  • Otro. -77
  • Caminando 1
  • Privado 2 - (Bicicleta,Moto,Transporte Informal,Transporte Privado)
  • Publico 3 - (Bus/Buseta/Ejecutivo,Taxi/Colectivo,Metro/Cable,Sistema integrado de transporte (SIT))
  • Animal 4 - Caballo (bestia)
  • Fluvial 5 - Lancha, Canoa, Bote
## # A tibble: 6 x 4
##   comuna    barrio                         p_43    k_43
##   <fct>     <fct>                          <chr>  <dbl>
## 1 ALTAVISTA AGUAS FRÍAS                    3     0.0476
## 2 ALTAVISTA ALTAVISTA CENTRAL              3     0.0651
## 3 ALTAVISTA ÁREA DE EXPANSIÓN ALTAVISTA    3     0.0622
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 3     0.0647
## 5 ALTAVISTA BUGA PATIO BONITO              3     0.107 
## 6 ALTAVISTA CABECERA ALTAVISTA             3     0.0595

p_44

¿Cuanto tiempo tarda en llegar a su centro educativo?

Posibles respuestas a la pregunta.
  • -99 No responde
  • -98 No sabe
  • -88 No aplica
  • 1 De 0 a 20 minutos
  • 2 De 21 a 40 minutos
  • 3 De 41 a 60 minutos
  • 4 De 61 a 80 minutos
  • 5 Más de 81 minutos
Variable que se desea medir.
Rango de tiempo en que se tarda en llegar a un centro educativo por barrio en Medellin.

Configuración de indicadores para la pregunta p_44.

Indicador definido. * Indicador 1 Porcentajes de estudiantes que se demoran mas de 41 minutos para llegar a su centro educativo. - k_qtion_2.

Generacio de indicador para p_44

## # A tibble: 6 x 4
##   comuna    barrio                         p_44     k_44
##   <fct>     <fct>                          <chr>   <dbl>
## 1 ALTAVISTA AGUAS FRÍAS                    2     0.0238 
## 2 ALTAVISTA ALTAVISTA CENTRAL              2     0.0335 
## 3 ALTAVISTA ÁREA DE EXPANSIÓN ALTAVISTA    2     0.0373 
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 2     0.0474 
## 5 ALTAVISTA BUGA PATIO BONITO              2     0.0476 
## 6 ALTAVISTA CABECERA ALTAVISTA             2     0.00595

Desarrollo de las preguntas Dimension Educación

p_45

¿Último nivel de estudio aprobado (Titulo)?

Posibles respuestas a la pregunta.
  • -99 No responde
  • -98 No sabe
  • 0 Ninguno
  • 1 Salacuna, Guardería, Preescolar
  • 2 Primaria
  • 3 Secundaria
  • 4 Media académica o Normalista
  • 5 Media Técnica
  • 6 Tecnológico
  • 7 Universidad
  • 8 Especializacion
  • 9 Maestria
Variable que se desea medir.
Último titulo obtenido por los encuestados en los barrios de Medellín.

Configuración de indicadores para la pregunta p_45.

Indicador definido. * Indicador 1 Porcentaje de personas con educacion superior 6,7,8,9.

Generacio de indicador para p_45

## # A tibble: 6 x 4
##   comuna    barrio                         p_45    k_45
##   <fct>     <fct>                          <chr>  <dbl>
## 1 ALTAVISTA AGUAS FRÍAS                    2     0.0159
## 2 ALTAVISTA ALTAVISTA CENTRAL              2     0.0316
## 3 ALTAVISTA ÁREA DE EXPANSIÓN ALTAVISTA    2     0.112 
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 2     0.362 
## 5 ALTAVISTA BUGA PATIO BONITO              2     0.0268
## 6 ALTAVISTA CABECERA ALTAVISTA             2     0.0119

Generación de la tabla final para proceso de Cluster.

Union de los indicadores de la dimension.

  1. Creo un dataFrame con todos los barrios contenidos en las encuestas.
##      comuna                         barrio       k_35        k_37
## 1 ALTAVISTA                    AGUAS FRÍAS 0.13492063 0.015873016
## 2 ALTAVISTA              ALTAVISTA CENTRAL 0.14201183 0.017751479
## 3 ALTAVISTA    ÁREA DE EXPANSIÓN ALTAVISTA 0.14937759 0.020746888
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 0.05172414 0.025862069
## 5 ALTAVISTA              BUGA PATIO BONITO 0.12797619 0.020833333
## 6 ALTAVISTA             CABECERA ALTAVISTA 0.11309524 0.005952381
##          k_38       k_43        k_44       k_45
## 1 0.000000000 0.04761905 0.023809524 0.01587302
## 2 0.000000000 0.06508876 0.033530572 0.03155819
## 3 0.000000000 0.06224066 0.037344398 0.11203320
## 4 0.000000000 0.06465517 0.047413793 0.36206897
## 5 0.005952381 0.10714286 0.047619048 0.02678571
## 6 0.000000000 0.05952381 0.005952381 0.01190476

Proceso de Normalización de datos para desarrollo de Cluster.

Proceso de escalamiento de datos

##                                                k_35        k_37       k_38
## ALTAVISTA/AGUAS FRÍAS                     0.9803570 -0.07559387 -0.5040064
## ALTAVISTA/ALTAVISTA CENTRAL               1.1366107  0.10847324 -0.5040064
## ALTAVISTA/ÁREA DE EXPANSIÓN ALTAVISTA     1.2989142  0.40198772 -0.5040064
## ALTAVISTA/ÁREA DE EXPANSIÓN BELÉN RINCÓN -0.8528670  0.90321472 -0.5040064
## ALTAVISTA/BUGA PATIO BONITO               0.8273371  0.41045834  3.9697256
## ALTAVISTA/CABECERA ALTAVISTA              0.4994372 -1.04769828 -0.5040064
##                                                k_43        k_44       k_45
## ALTAVISTA/AGUAS FRÍAS                    -0.7236779 -0.03056668 -0.9246057
## ALTAVISTA/ALTAVISTA CENTRAL              -0.2983898  0.40288060 -0.8159130
## ALTAVISTA/ÁREA DE EXPANSIÓN ALTAVISTA    -0.3677246  0.57293352 -0.2582497
## ALTAVISTA/ÁREA DE EXPANSIÓN BELÉN RINCÓN -0.3089451  1.02191307  1.4744095
## ALTAVISTA/BUGA PATIO BONITO               0.7253885  1.03106506 -0.8489845
## ALTAVISTA/CABECERA ALTAVISTA             -0.4338646 -0.82679049 -0.9521043

Proceso de Cluster K-Means.

1. Proceso de selección del K optimo para la clusterizacion de K-Means.

Diferencia de los errores

Generacion de los Clusters con el K recomendado.

Como se identifica en la grafica del codo y la de siluetas, el K optimo para generar las agrupaciones en el metodo K-means es 4.

Según el algoritmo, se generaron 4 grupos distribuidos de la siguiente forma :

  • Cluster 1 -> 8 Barrios.
  • Cluster 2 -> 178 Barrios.
  • Cluster 3 -> 23 Barrios.
  • Cluster 4 -> 101 Barrios.

La distribucion numerica de los grupos es generado a partir de la siguiente instrucción. kmeans_4$size

Grafico de radar para Clusters

Antes de iniciar los analisis de los grupos, se realizo un proceso de calculo de los minimos, maximos y media de la data real recogida en las encuestas con el proposito de realizar unas graficos de radar y poder hacer un analísis que nos permita entregar mayor detalle de lo que sucede en cada cluster. Al realizar los graficos a simple vista encontramos que existen varios indicadores que realmente no aportan mucho en el momento de definir los grupos. Tambien se procede a consultar los indicadores fundamentales que nos permiten validar la fortaleza del modelo, garantizando la menor varianza dentro del cluster (within_SS) y la maxima varianza entre los grupos (between_SS) y así calculando su ajuste.

between_SS = 860.3908 total_SS = 1854 between_SS / total_SS (Varianza de la data) = 46,40272%

## [1] 185.7018
## [1] 0.4640727

En este caso la XXXX tiene un valor muy bajo. Aquí tenemos 2 alternativas para aumentar el nivel de xxxx. + Aumentar el tamaño de K, pero aquí corremos el riesgo de perder el equilibrio de los grupos pues si aumentamos el K lo que se hacemos es divider más los grupos hasta que el valor de las varianzas de los grupos sea igual total de todas la varianza y no estariamos respetando los graficos recomendados en la prueba del codo donde nos recomienda un k de grupos optimo.

  • Disminuir la cantidad de variables, dejando solo las variables que realmente aportan a la definición de los grupos. En este caso se generara un metodo de PCA para encontrar dichas dimensiones con el poder de determinacion de grupo mediante el calculo de su porcentaje de variación.

La grafica generada del PCA donde calcula los porcentajes de explicación nos muestra que existen variables las cuales tiene muy poco poder de explicación para definir los grupos. Realizando un camparativo entre los graficos, Radar y PCA encontramos que K_37 (Porcentaje de personas que estudiaron en este año.) y K_38 (Porcentaje de desescolarización debido a la falta de garantias en barrios de Medellín.) no son determinantes en el momento de definir los grupos.

Se procedera a Eliminar los indicadores y correr de nuevo el algoritmo K-means y determinar su ajuste.

##                                                k_35       k_43        k_44
## ALTAVISTA/AGUAS FRÍAS                     0.9803570 -0.7236779 -0.03056668
## ALTAVISTA/ALTAVISTA CENTRAL               1.1366107 -0.2983898  0.40288060
## ALTAVISTA/ÁREA DE EXPANSIÓN ALTAVISTA     1.2989142 -0.3677246  0.57293352
## ALTAVISTA/ÁREA DE EXPANSIÓN BELÉN RINCÓN -0.8528670 -0.3089451  1.02191307
## ALTAVISTA/BUGA PATIO BONITO               0.8273371  0.7253885  1.03106506
## ALTAVISTA/CABECERA ALTAVISTA              0.4994372 -0.4338646 -0.82679049
##                                                k_45
## ALTAVISTA/AGUAS FRÍAS                    -0.9246057
## ALTAVISTA/ALTAVISTA CENTRAL              -0.8159130
## ALTAVISTA/ÁREA DE EXPANSIÓN ALTAVISTA    -0.2582497
## ALTAVISTA/ÁREA DE EXPANSIÓN BELÉN RINCÓN  1.4744095
## ALTAVISTA/BUGA PATIO BONITO              -0.8489845
## ALTAVISTA/CABECERA ALTAVISTA             -0.9521043

Después de eliminar los dos indicadores que no tenian ningun poder explicativo para los grupos, vemos nuevamente que en el grafico de cluster los grupos estan más definidos y no solapan tanto como en la primera corrida del modelo.

Revisando de nuevo el indicador propio de evaluación, tenemos :

between_SS = 747.8616 se encuentra un total_SS = 1236 between_SS / total_SS (Varianza de la data) = 60.5066%

De esta forma, se procede entonces a generar de nuevo los graficos de radar.

Analisis de los Clusters

Indicadores claves para analisis.

Después del ejercicio realizado para eliminar indicadores se tienen los siguientes definidos para el analisis.

  • p_35 Nivel de Analfabetismo en los Barrios de Medellín.
  • p_43 Porcentaje de estudiantes que utilizan el transporte publico para dirigirse al centro educativo?
  • p_44 Porcentajes de estudiantes que se demoran mas de 41 minutos para llegar a su centro educativo.
  • p_45 Porcentaje de personas con educacion superior

Los grupos generados por el algoritmo K-means para la encuesta que estudia la dimensión de educación para el estudio Medellín como Vamos, muestra que la educación en los barrios de Medellin se dividen en 4 grupos donde son determinados por : * El nivel de analfabetismo. * El medio de transporte en el que se dirigen a su sitio de educación. * El tipo que demoran en ir a su lugar de estudio. * El nivel de estudios superiores que la persona curso.

El Cluster número 1, se diferencia de los demas grupos porque las personas que se dirigen a estudar su mayoria no se demoran más de 41 minutos, menos del 3% de los encuentados. Solo un poco más del 10% tienen estudios superiores, menos del 10% utilizan el trasporte publico para dirigirse al sitio de estudio, temas comprensible debido a que menos del 3% estudian en sitios lejanos. El nivel de analfabetismo ronda en un 7% de las perosonas encuestadas. El cluster 1 esta comprenido en 130 barrios dispersos en todo el valle de la aburra, distribuidas en comunas de.

ALTA VISTA,ARANJUEZ,BELEN,BUENOS AIRES,CASTILLA,DOCE DE OCTUBRE,EL POBLADO,GUAYABAL,LA AMERICA,LA CANDELARIA,LAURELES-ESTADIO,MANRIQUE,PALMITAS,ROBLEDO,SAN ANTONIO DE PRADO,SAN CRISTOBAL,SAN JAVIER,SANTA ELENA,VILLA HERMOSA

Este cluster comprenden comunas donde la mayoria de sus habitantes pertenecen a una clase obrera trabajadora.

El Cluster numero 2, se diferencia de los demas grupos debido a que el 23% las personas que viven en estos barrios, utilizan el transporte publico para dirigirse al lugar de estudio. La segunda variable más notoria es el analfabetismo, con al rededor del 18%. Las dos variables restantes tiene un comportamiento menor. El cluster 2 esa conformado por 3 barrios estos son: El carmelo, La Ilusión y San Jose de la Montaña, todos pertenecientes a la comuna de San Cristobal. Este clustes nos permite concluir que hace fata una institucion educativa cerca a la comunidad que permita elevar el nivel de vida de los habitantes pues gran cantidad de personas deben deplazarse mas de 41 minutos a un sitio de educacion.

El Clustes 3, Este grupo se caracteriza porque tiene los indicadores más regulares que los otros grupos, tres de cuatro indicadores de estudio tiene un comportamiento parejo, el analfabetismo tiene un leve incremento con respecto a los demas. El indicador k_45 (Estudios superiores) tiene un leve decenso. Esto puede ocurrir debido a que las personas de estos barrios, de mayores posibilidades. Los barrios que hacen parte de este cluster estan comprendidos en las siguientes comunas: ARANJUEZ,BELEN,BUENOS AIRES,CASTILLA,DOCE DE OCTUBRE,GUAYABAL,LA CANDELARIA,MANRIQUE,PALMITAS,POPULAR ROBLEDO,SAN ANTONIO DE PRADO,SAN CRISTOBAL,SAN JAVIER,SANTA CRUZ,SANTA ELENA,VILLA HERMOSA

El Cluster 4, Este cluster se difencia de los otros grupos por su bajo porcentaje de analfabetismo y su alto porcentaje de personas con educación superior. Las personas que viven en los barrios pertenecientes a este grupo utilizan poco el transporte urbano y en promedio sedemoran poco para llegar a su lugar de estudio. Este grupo al parecer corresponde a u grupo aspiracional debido a que las personas con mejores oportunidades para tener estudio superiores llegan a este grupo. El cluster 4, comprenden 70 barrios ubicados en las siguientes comunas.

ALTA VISTA,BELEN,BUENOS AIRES,EL POBLADO,LA AMERICA,LA CANDELARIA,LAURELES-ESTADIO,ROBLEDO,SANTA ELENA

Grafico apilado de barras

Comportamiento de preguntas por cluster

Generacion de Mapa de distribucion de cluster.

## Loading required package: sp
## rgdal: version: 1.4-8, (SVN revision 845)
##  Geospatial Data Abstraction Library extensions to R successfully loaded
##  Loaded GDAL runtime: GDAL 2.4.2, released 2019/06/28
##  Path to GDAL shared files: /Library/Frameworks/R.framework/Versions/3.6/Resources/library/rgdal/gdal
##  GDAL binary built with GEOS: FALSE 
##  Loaded PROJ.4 runtime: Rel. 5.2.0, September 15th, 2018, [PJ_VERSION: 520]
##  Path to PROJ.4 shared files: /Library/Frameworks/R.framework/Versions/3.6/Resources/library/rgdal/proj
##  Linking to sp version: 1.3-2
## Warning: Expected 2 pieces. Additional pieces discarded in 1 rows [260].
## OGR data source with driver: ESRI Shapefile 
## Source: "/Users/jdtangarife/Documents/GitHub/TAE_T1/Barrio_Vereda/Barrio_Vereda.shp", layer: "Barrio_Vereda"
## with 332 features
## It has 6 fields
## Integer64 fields read as strings:  OBJECTID SUBTIPO_BA
##      comuna                         barrio       k_35       k_43
## 1 ALTAVISTA                    AGUAS FRÍAS 0.13492063 0.04761905
## 2 ALTAVISTA              ALTAVISTA CENTRAL 0.14201183 0.06508876
## 3 ALTAVISTA    ÁREA DE EXPANSIÓN ALTAVISTA 0.14937759 0.06224066
## 4 ALTAVISTA ÁREA DE EXPANSIÓN BELÉN RINCÓN 0.05172414 0.06465517
## 5 ALTAVISTA              BUGA PATIO BONITO 0.12797619 0.10714286
## 6 ALTAVISTA             CABECERA ALTAVISTA 0.11309524 0.05952381
##          k_44       k_45 cluster
## 1 0.023809524 0.01587302       3
## 2 0.033530572 0.03155819       3
## 3 0.037344398 0.11203320       3
## 4 0.047413793 0.36206897       4
## 5 0.047619048 0.02678571       3
## 6 0.005952381 0.01190476       3

Convertimos a minúsculas

##                               barrio cluster
## 1                        aguas frÃas       3
## 2                  altavista central       3
## 3      área de expansión altavista       3
## 4 área de expansión belén rincón       4
## 5                  buga patio bonito       3
## 6                 cabecera altavista       3
## [1] 113